bagging boosting stacking原理介绍

本文分别介绍bagging boosting stacking三种方法。

boosting: 减少偏差

对于提升方法来说,需要解决两个问题:

  • 如何在每一轮中改变训练集数据的权重值或者是概率分布
    提高那些在前一轮弱分类器分错了的样本的权值,使得分错的样本的在后一轮的分类器中得到更多的关注。

  • 如何将弱分类器组合成一个强分类器:加大分类误差小的弱分类器的权重,使得它在表决中起到更大的作用

bagging: 减少方差

从原始数据中抽取样本集。每轮从原始样本中使用Bootstraping(有放回的)方法抽取n个训练样本(注:有些样本可能被多次抽到,也有可能有些样本一次都抽不到)。共进行k轮抽取,得到k个训练集。

分类问题:将k个模型投票

回归问题:计算上述模型的均值最后的结果。

此外bagging使用中,训练集可以使用全部的特征进行训练,也可以选择部分特征训练。例如随机森林就是每次选取部分的特征。

stacking:

用不同的模型的输出作为输入,再去学习,例如两层的FC.

-------------本文结束感谢您的阅读-------------
您的小小鼓励,是我不断更新的强大动力!